陈丹琦团队新作:微调8B模型超越Claude3 Opus,背后是RLHF新平替
陈丹琦团队新作:微调8B模型超越Claude3 Opus,背后是RLHF新平替比斯坦福DPO(直接偏好优化)更简单的RLHF平替来了,来自陈丹琦团队。 该方式在多项测试中性能都远超DPO,还能让8B模型战胜Claude 3的超大杯Opus。 而且与DPO相比,训练时间和GPU消耗也都大幅减少。
比斯坦福DPO(直接偏好优化)更简单的RLHF平替来了,来自陈丹琦团队。 该方式在多项测试中性能都远超DPO,还能让8B模型战胜Claude 3的超大杯Opus。 而且与DPO相比,训练时间和GPU消耗也都大幅减少。
刚刚,Anthropic 宣布在理解人工智能模型内部运作机制方面取得重大进展。
I/O大会上,谷歌Gemini 1.5 Pro一系列更新让开发者们再次沸腾。最新技术报告中,最引人注目的一点是,数学专业版1.5 Pro性能碾压GPT-4 Turbo、Claude 3 Opus,成为全球最强的数学模型。
Anthropic发布最新Claude宪法,兼具标准性和灵活性。语言模型如何决定它将涉及哪些问题,哪些问题它认为不合适涉及?为什么它会鼓励某些行为,而阻止另一些行为?语言模型有哪些「价值观」?
谷歌表示,Gemini 1.5 相比 Claude 3.0 和 GPT-4 Turbo 实现了代际提升。
就在最近,清华大学SuperBench团队的新一轮全球大模型评测结果出炉了!
又一个国产多模态大模型开源! XVERSE-V,来自元象,还是同样的无条件免费商用。
继 1 月推出国内首个基于 MoE 架构的千亿参数量大语言模型 abab6 后,上周,通用人工智能创业公司、中国估值最高的大模型公司之一 MiniMax 推出了万亿 MoE 模型 abab 6.5。根据 MiniMax 发布的技术报告,在各类核心能力测试中,abab 6.5接近 GPT-4、 Claude 3 Opus 、Gemini 1.5 Pro 等世界领先的大语言模型。
随着Claude 3、Llama 3甚至之后GPT-5等更强模型发布,业界急需一款更难、更有区分度的基准测试。
Llama 3诞生之后便艳压群雄,开源界已无「模」能敌。